Codificación (s, c)-Densa: optimizando la compresión de texto en lenguaje natural

نویسندگان

  • Nieves R. Brisaboa
  • Antonio Fariña
  • Gonzalo Navarro
  • Eva Lorenzo Iglesias
  • José R. Paramá
  • María F. Esteller
چکیده

Resumen Este trabajo presenta un nuevo método para la compresión de textos, que permite la búsqueda directa de palabras y frases dentro del texto sin necesidad de descomprimirlo. Este método es directamente comparable, en tasa de compresión, con las técnicas basadas en Huffman orientadas a palabras y proporciona una compresión más simple y rápida, manteniendo sus caracteŕısticas más destacables de cara a la realización de búsquedas directas de palabras sobre el texto comprimido, al generar códigos con “marca” y de prefijo libre. De este modo esta técnica es extremadamente adecuada para la compresión de textos sobre los que haya que realizar operaciones de Text Retrieval, pues facilita la indexación y preprocesado sin necesidad de descomprimirlos. En el presente art́ıculo se describe la Codificación (s,c)-Densa y se muestra el proceso de obtención de los parámetros s y c que maximizan la compresión de un corpus determinado. Este proceso se basa en analizar la distribución de frecuencias de las palabras para, de este modo, generar códigos que minimicen la redundancia del código generado. Además se muestran resultados emṕıricos que demuestran la efectividad de esta nueva técnica de compresión.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Estudio sobre métodos tipo Lesk usados para la desambiguación de sentidos de palabras

Resumen. La ambigüedad semántica es un problema que se presenta en todos los lenguajes naturales. Podríamos decir que para los seres humanos la ambigüedad en el lenguaje pasa desapercibida, debido a que la resolvemos casi inconscientemente utilizando la realidad en que vivimos, el contexto y el conocimiento que poseemos sobre algunos temas. Pero para las computadoras no es así. En el área de pr...

متن کامل

Proyecto de indexado automático para documentos en el campo de la física de altas energías

Este proyecto consiste en el desarrollo de un sistema automático de indexado por asignación. El indexado por asignación consiste en la selección de palabras clave dentro de un léxico controlado (en nuestro caso un tesauro) que describan y resuman los conceptos más importantes tratados en un texto dado. El sistema propone palabras clave según el tesauro del laboratorio alemán DESY (Deutsche Elek...

متن کامل

Aspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega

Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...

متن کامل

PHILIPS: Intelligent Speech Interpretation - la tecnología inteligente de reconocimiento de voz

Resumen: Independientemente de la aplicación, el núcleo de cualquier sistema de reconocimiento de voz sigue siendo la inteligencia que convierte el habla en texto. Al reconocer lo que se dice e interpretarlo de forma razonable, garantiza una intervención mínima en el proceso de trascripción para producir informes útiles. Palabras clave: Philips, SpeechMagic, reconocimiento del habla, tecnología...

متن کامل

Los proyectos SINAMED e ISIS: Mejoras en el Acceso a la Información Biomédica mediante la integración de Generación de Resúmenes, Categorización Automática de Textos y Ontologías

Los sistemas inteligentes de acceso a la información están integrando de manera creciente técnicas de minería de texto y de análisis del contenido, y recursos semánticos como las ontologías. En los proyectos ISIS y SINAMED juegan un papel central la utilización de categorización de texto, la extracción automática de resúmenes y las ontologías, para la mejora del acceso a la información en un do...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2003